Load libraries

library(tidytext)
library(tidyverse)
library(quanteda)
library(lubridate)
library(ggplot2)
library(plotly)
library(forcats)
library(readxl)
library(leaflet)
library(leaflet.minicharts)
library(sp)
library(sf)
library(readr)
library(stringr)
library(rtweet)
library(ggraph)
library(ggrepel)
library(tidygraph)

Load Data

Parlamentarier <- read_csv("Data/Parlamentarier.csv")

-- Column specification ------------------------------------------------------------------------------------------------------------------------------
cols(
  .default = col_character(),
  tags = col_logical(),
  Homepage_URL = col_logical(),
  SM_Twitter_id = col_double(),
  SM_Twitter_verifiziert = col_logical(),
  SM_Facebook_id = col_double(),
  SM_Facebook_verifiziert = col_logical(),
  SM_Youtube_user = col_logical(),
  SM_Youtube_id = col_logical(),
  SM_Youtube_verifiziert = col_logical(),
  SM_Instagram_user = col_logical(),
  SM_Instagram_id = col_logical(),
  SM_Instagram_verifiziert = col_logical(),
  SM_Telegram_user = col_logical(),
  SM_Telegram_id = col_logical(),
  SM_Telegram_verifiziert = col_logical(),
  created_at = col_datetime(format = ""),
  modified_at = col_datetime(format = "")
)
i Use `spec()` for the full column specifications.

EU-Parlament rausfiltern

Parlamentarier <- Parlamentarier %>% 
  filter(Kategorie!="EU-Parlament")

Read Tabellen mit fehlenden Geschlechtern

alle_geschlechter <- read_excel("Data/Parlamentarier_geschechter.xlsx", sheet = "Geschlechter")

Join fehlende Geschlechterangaben

Parlamentarier <- Parlamentarier %>% 
  left_join(alle_geschlechter, by = c("Name" = "Name"))

Rename Spalten

Parlamentarier <- Parlamentarier %>% 
  rename(Geschlecht = Geschlecht.y)

Bundestag Geschlechterverteilung pro Partei

bundestag <- Parlamentarier %>% 
  select(id, Name, Geschlecht, Partei, Kategorie, SM_Twitter_id, SM_Twitter_user) %>% 
  filter(Kategorie=="Bundestag")

bundestag$Partei[bundestag$Partei == "CSU"] <-"CDU/CSU"
bundestag$Partei[bundestag$Partei=="CDU"]<-"CDU/CSU"

bundestag_man <- bundestag %>% 
  group_by(Partei) %>% 
  filter(Geschlecht == "männlich") %>% 
  summarise(gesamt_man=n())

bundestag_gesamt <- bundestag %>% 
  group_by(Partei) %>% 
  filter(Geschlecht == "weiblich") %>% 
  summarise(gesamt_frau=n()) %>% 
  left_join(bundestag_man) %>% 
  mutate(row_sum=rowSums(.[2:3])) %>% 
  arrange(desc(row_sum))
Joining, by = "Partei"

Barchart Bundestag

  • Stacked-Barchart zur Geschlechterverteilung im Bundestag pro Partei
  • visualisierung der Daten in möglichst geschlechterneuralen Farben
plot_ly(data=bundestag_gesamt, x=~reorder(Partei,-row_sum), y=~gesamt_frau, name="weiblich", marker=list(color=toRGB("#FB7F62")),
        type="bar", hoverinfo="text", text=~paste("",row_sum), 
        hovertemplate=paste("Anzahl: %{y:,.0f}", 
                            "<br>Gesamtanzahl: %{text}")) %>% 
  add_trace(y=~gesamt_man, name="männlich", marker=list(color=toRGB("#775285"))) %>% 
  layout(barmode="stack", title="Geschlechterverteilung in den Parteien im Bundestag", # titel position und größe ändern
         xaxis = list(title = ""), yaxis=list(title="Anzahl Abgeordnete")) %>%
  layout(legend=list(x=1, y=0.5))

Landtag Geschlechterverteilung pro Partei

landtag_partei <- Parlamentarier %>% 
  filter(Kategorie !="Bundestag") %>% 
  filter(Kategorie!="EU-Parlament") %>% 
  filter(Partei !="BIW") %>% 
  filter(Partei!="SSW") %>% 
  filter(Partei!="BVB/FW") %>% 
  filter(Partei!="FW")
landtag_partei$Partei[landtag_partei$Partei == "CSU"] <-"CDU/CSU"
landtag_partei$Partei[landtag_partei$Partei=="CDU"] <- "CDU/CSU"
landtag_partei$Partei[landtag_partei$Partei=="FDP/DVP"] <- "FDP" 
landtag_man <- landtag_partei %>% 
  group_by(Partei) %>% 
  filter(Geschlecht=="männlich") %>% 
  summarise(gesamt_man=n())

landtag_gesamt <- landtag_partei %>% 
  group_by(Partei) %>% 
  filter(Geschlecht=="weiblich") %>% 
  summarise(gesamt_frau=n()) %>% 
  left_join(landtag_man) %>% 
   mutate(row_sum=rowSums(.[2:3])) %>% 
  arrange(desc(row_sum))
Joining, by = "Partei"

Barchart Landtag

  • Stacked-Barchart zur Geschlechterverteilung in den Landtagen pro Partei
  • visualisierung der Daten in möglichst geschlechterneuralen Farben
plot_ly(data=landtag_gesamt, x=~reorder(Partei,-row_sum), y=~gesamt_frau, name="weiblich", marker=list(color=toRGB("#FB7F62")), 
        type="bar", hoverinfo="text", text=~paste("",row_sum), 
        hovertemplate=paste("Anzahl: %{y:,.0f}", 
                            "<br>Gesamtanzahl: %{text}")) %>% 
  add_trace(y=~gesamt_man, name="männlich", marker=list(color=toRGB("#775285"))) %>% 
  layout(barmode="stack", title="Geschlechterverteilung in den Parteien in den Landtagen", # titel position und größe ändern
         xaxis=list(title=""), yaxis=list(title="Anzahl Abgeordnete")) %>%
  layout(legend=list(x=1, y=0.5))

Map mit Geschlechterverteilung in den Landtagen

parlamentarier_landtag <- Parlamentarier %>% 
  filter(Kategorie %in% c("Abgeordnetenhaus von Berlin", 
                          "Bayerischer Landtag", 
                          "Bremische Bürgerschaft", 
                          "Hamburgische Bürgerschaft", 
                          "Hessischer Landtag", 
                          "Landtag Brandenburg", 
                          "Landtag des Saarlandes", 
                          "Landtag Mecklenburg-Vorpommern", 
                          "Landtag Nordrhein-Westfalen", 
                          "Landtag Rheinland-Pfalz", 
                          "Landtag Sachsen-Anhalt", 
                          "Landtag von Baden-Württemberg", 
                          "Niedersächsischer Landtag", 
                          "Sächsischer Landtag", 
                          "Schleswig-Holsteinischer Landtag", 
                          "Thüringer Landtag"))
Kategorie <- c("Abgeordnetenhaus von Berlin", 
               "Bayerischer Landtag", 
               "Bremische Bürgerschaft",
               "Hamburgische Bürgerschaft", 
               "Hessischer Landtag",
               "Landtag Brandenburg", 
               "Landtag des Saarlandes",
               "Landtag Mecklenburg-Vorpommern",
               "Landtag Nordrhein-Westfalen",
               "Landtag Rheinland-Pfalz",
               "Landtag Sachsen-Anhalt", 
               "Landtag von Baden-Württemberg", 
               "Niedersächsischer Landtag", 
               "Sächsischer Landtag", 
               "Schleswig-Holsteinischer Landtag", 
               "Thüringer Landtag")

lat <- c(52.520008,
         48.917431,
         53.074982,
         53.553815,
         50.652052,
         52.408418,
         49.396423,
         53.612651,
         51.433237,
         50.118346,
         51.950265,
         48.661604,
         52.636704,
         51.104541,
         54.219367,
         51.010989)

lng <- c(13.404954,
         11.407980,
         8.807080,
         9.991575,
         9.162438,
         12.562492,
         7.022961,
         12.429595,
         7.661594,
         7.308953,
         11.692274,
         9.350134,
         9.845077,
         13.201738,
         9.696117,
         10.845346)

bundeslaender_koordinaten <- data.frame(Kategorie, lat, lng)
parlamentarier_man <- parlamentarier_landtag %>% 
  group_by(Kategorie) %>% 
  filter(Geschlecht == "männlich") %>% 
  summarise(männlich = n())

parlamentarier_landtag_gesamt <- parlamentarier_landtag %>% 
  group_by(Kategorie) %>% 
  filter(Geschlecht == "weiblich") %>% 
  summarise(weiblich = n()) %>% 
  left_join(parlamentarier_man)
Joining, by = "Kategorie"
parlamentarier_koordinaten <- parlamentarier_landtag_gesamt %>% 
  left_join(bundeslaender_koordinaten, by = c("Kategorie" = "Kategorie"))

Map mit Pie-Charts

colors <- c("#FB7F62", "#775285")

grenzen <- readRDS("Data/gadm36_DEU_1_sp.rds") %>% 
  st_as_sf()

popup_bundeslaender <- paste0("<strong>Bundesland: </strong>", grenzen$NAME_1)
map <- leaflet() %>% 
  addProviderTiles(providers$CartoDB.VoyagerLabelsUnder) %>% 
  setView(lng = 10.451526, lat = 51.165691, zoom = 5.5) %>% 
  addPolygons(data = grenzen,
              fillColor = "grey",
              fillOpacity = 0.1,
              weight = 3,
              color = "grey",
              popup = popup_bundeslaender) %>% 
  addMinicharts(
    parlamentarier_koordinaten$lng, parlamentarier_koordinaten$lat,
    type = "pie",
    chartdata = parlamentarier_koordinaten[, c("weiblich", "männlich")],
    colorPalette = colors,
    width = 46,
    height = 46,
    opacity = 0.8,
    legendPosition = "bottomright"
  )
sf layer has inconsistent datum (+proj=longlat +ellps=WGS84 +towgs84=0,0,0,0,0,0,0 +no_defs).
Need '+proj=longlat +datum=WGS84'
map

Tweets der Politiker*innen scrapen

Nicht als ausführbaren Code, damit die Daten nicht nochmals gezogen werden…

Twitter_accounts <- Parlamentarier %>% filter(Kategorie!=“EU-Parlament”) %>% filter(Partei!=“BIW”) %>% filter(Partei!=“SSW”) %>% filter(Partei!=“BVB/FW”) %>% filter(Partei!=“FW”) %>% filter(Partei!=“fraktionslos”) %>% filter(SM_Twitter_user != "")

token <- get_token() token

alle_tweets <- list() userIdList = list(Twitter_accounts\(SM_Twitter_user) rl <- rate_limit(token, "statuses/user_timeline") for(user in userIdList[[1]]){ alle_tweets[[user]] <- get_timeline(user, n = 2, check = F) print("rate limit remaining:", str(rl\)remaining)) print(“at user:”, str(user)) rl <- rl %>% mutate(remaining = remaining - 1) # if rate limit exhausted, then wait to rate limit reset if (rl\(remaining == 5L) { rl <- rate_limit(token, "statuses/user_timeline") print("rate limit exceeded, waiting for 900s at user", str(user)) Sys.sleep(as.numeric(rl\)reset, “secs”)) } }

Nach relevanten Hashtags filtern

  • “alle_tweets.rds” ist die Datei mit allen gezogenen Tweets.
  • nach relevanten Tweets filtern mit vorher bestimmten Hashtags (“Twitter-Hashtags.xlsx”), Tweets in Kleinschreibung formatieren und als “final_tweets.rds” exportieren.
alle_tweets <- read_rds("Data/alle_tweets.rds")

suchbegriffe <- read_excel("Data/Twitter-Hashtags.xlsx", sheet ="Tabelle2")

suchbegriffe_vector <- suchbegriffe$Hashtags

alle_tweets <- bind_rows(alle_tweets)

alle_tweets <- alle_tweets %>% 
  mutate(text = tolower(text))

filtert_tweets <- alle_tweets %>% 
  filter(str_detect(text, paste (suchbegriffe_vector, collapse = "|")))

write_rds(filtert_tweets, "final_tweets.rds")

Sentimentanalyse

Parlamentarier_senti <- Parlamentarier %>% 
  filter(Partei!="BIW") %>% 
  filter(Partei!="SSW") %>% 
  filter(Partei!="BVB/FW") %>% 
  filter(Partei!="FW") %>% 
  filter(Partei!="fraktionslos") %>% 
  filter(SM_Twitter_user != "") %>% 
  select(Name, Partei, SM_Twitter_user, Geschlecht) %>% 
  mutate(SM_Twitter_user=tolower(SM_Twitter_user))
Parlamentarier_senti$Partei[Parlamentarier_senti$Partei == "CSU"] <- "CDU/CSU"
Parlamentarier_senti$Partei[Parlamentarier_senti$Partei == "CDU"] <- "CDU/CSU"
Parlamentarier_senti$Partei[Parlamentarier_senti$Partei == "FDP/DVP"] <- "FDP" 
load("Data/sentiWS.RData")
sentiws <- dictionary(list(positive=positive, negative=negative))
tweet_corpus <- corpus(filtert_tweets, text_field = "text")
token <- tokens(tweet_corpus)
dfm <- dfm(token)

senti <- dfm_lookup(dfm, sentiws)  
senti <- dfm_group(senti, groups = screen_name)
senti_frame <- senti %>% 
  convert(to= "data.frame") %>% 
  as_tibble() %>% 
  mutate(doc_id=tolower(doc_id))
Fehler in UseMethod("convert") : 
  nicht anwendbare Methode für 'convert' auf Objekt der Klasse "c('dfm', 'dgCMatrix', 'CsparseMatrix', 'dsparseMatrix', 'generalMatrix', 'dCsparseMatrix', 'dMatrix', 'sparseMatrix', 'compMatrix', 'Matrix', 'xMatrix', 'mMatrix', 'Mnumeric', 'replValueSp')" angewendet

Barchart

  • Partei absteigend nach negativem Sentiment sortieren
  • Beschriftung der X- und Y Werte ändern
  • Barchart bilden und in ggplotly konvertieren
senti_bar <- senti_final_frame %>% 
  mutate(Partei = fct_reorder(Partei, positive, max)) %>% 
  pivot_longer(c(positive, negative), values_to = c("Verhältnis"), names_to = c("Äußerung")) %>% 
  ggplot() + 
  geom_bar(aes(Partei,
               Verhältnis,               
               fill = Äußerung),
           position = "stack",
           stat = "identity") +
  scale_fill_manual(values = c("#f46666", "#8EC9BB")) + 
  theme_classic() + 
  labs(
    title = "Äußerungen der Politiker*innen auf Twitter zum Thema 'Gender'",
    subtitle = "Einschätzung durch Sentimentanalyse",
    x = "Partei",
    y = "Verhältnis",
    fill = "Äußerung"
  )

final_senti_plot <- ggplotly(senti_bar)
final_senti_plot

Twitter Netzwerk

tweets_network <- filtert_tweets %>% 
  select(screen_name,
         retweet_screen_name,
         created_at) %>% 
  mutate(screen_name = tolower(screen_name))
parlamentarier_network <- Parlamentarier %>% 
  select(Name,
         Partei,
         SM_Twitter_user) %>% 
  drop_na(SM_Twitter_user) %>% 
  mutate(SM_Twitter_user = tolower(SM_Twitter_user)) %>% 
  rename("screen_name" = "SM_Twitter_user")

network_data <- parlamentarier_network %>% 
  left_join(tweets_network, by = "screen_name")
hauefigkeit_tweets <- network_data %>% 
  count(screen_name)

network_data <- network_data %>% 
  left_join(hauefigkeit_tweets, by = "screen_name")
screen_suche <- parlamentarier_network$screen_name

filtered_retweeters <- network_data %>% 
  filter(str_detect(retweet_screen_name, paste (screen_suche, collapse = "|")))
netz <- filtered_retweeters %>% 
  filter(!is.na(retweet_screen_name)) %>% 
  select(from = screen_name, to = retweet_screen_name) %>% 
  as_tbl_graph

netz <- netz %>% 
  mutate(
    degree = centrality_degree(mode = "in"), 
    component = group_components()
  ) %>% 
  left_join(network_data %>% 
              select(Name, screen_name, Partei, n) %>% distinct(screen_name, .keep_all = T),
            by = c( "name" ="screen_name")) 
partei_farben <- list(
  "CDU/CSU" = "black",
  "SPD" = "red",
  "CSU" = "black",
  "FDP" = "#e2b007",
  "GRÜNE" = "#07C23F",
  "LINKE" = "#de4c8a", 
  "AfD" = "blue"
)

Netzwerk

Zuweisung von Attributen an Nodes: * Parteizugehörigkeit in Farbe * Klarname der Politikerinnen als Label Anzahl der Tweets in Größe

netz_plot <- netz %>% 
  filter(component <= 6) %>% 
  mutate(degree = centrality_degree(mode = "in")) %>% 
  ggraph(layout = "fr") +
  geom_edge_link(alpha = 0.25, arrow = arrow(length = unit("5", "mm"))) +
  geom_node_point(aes(size = n, color = Partei)) + 
  scale_color_manual(values = partei_farben) +
  theme_graph(background = "white") + # theme
  geom_node_label(aes(filter = n >= 15, label = Name), repel = T, show.legend = F, alpha = 0.5) + #position = "jitter"
  labs(title = "Retweet-Netzwerke deutscher Politiker*innen", size = "Anzahl Tweets", subtitle = "zum Thema 'Gender' ab 2016")
netz_plot 

NODES DEUTLICHERE ABSTUFUNG, VLT. THEME FUNKTIONIERT NICHT RICHTIG

---
title: "R_Projekt_Gender"
output: html_notebook
---
# Load libraries 

```{r}
library(tidytext)
library(tidyverse)
library(quanteda)
library(lubridate)
library(ggplot2)
library(plotly)
library(forcats)
library(readxl)
library(leaflet)
library(leaflet.minicharts)
library(sp)
library(sf)
library(readr)
library(stringr)
library(rtweet)
library(ggraph)
library(ggrepel)
library(tidygraph)
```

# Load Data 

```{r}
Parlamentarier <- read_csv("Data/Parlamentarier.csv")
```

EU-Parlament rausfiltern
```{r}
Parlamentarier <- Parlamentarier %>% 
  filter(Kategorie!="EU-Parlament")
```

Read Tabellen mit fehlenden Geschlechtern
```{r}
alle_geschlechter <- read_excel("Data/Parlamentarier_geschechter.xlsx", sheet = "Geschlechter")
```

Join fehlende Geschlechterangaben 
```{r}
Parlamentarier <- Parlamentarier %>% 
  left_join(alle_geschlechter, by = c("Name" = "Name"))
```

Rename Spalten
```{r}
Parlamentarier <- Parlamentarier %>% 
  rename(Geschlecht = Geschlecht.y)
```

# Bundestag Geschlechterverteilung pro Partei

* filtern nach Bundestag
* CDU & CSU zusammenfügen 
* nach männlich und weiblich gruppieren, Anzahl berechnen und sortieren
```{r}
bundestag <- Parlamentarier %>% 
  select(id, Name, Geschlecht, Partei, Kategorie, SM_Twitter_id, SM_Twitter_user) %>% 
  filter(Kategorie=="Bundestag")

bundestag$Partei[bundestag$Partei == "CSU"] <-"CDU/CSU"
bundestag$Partei[bundestag$Partei=="CDU"]<-"CDU/CSU"

bundestag_man <- bundestag %>% 
  group_by(Partei) %>% 
  filter(Geschlecht == "männlich") %>% 
  summarise(gesamt_man=n())

bundestag_gesamt <- bundestag %>% 
  group_by(Partei) %>% 
  filter(Geschlecht == "weiblich") %>% 
  summarise(gesamt_frau=n()) %>% 
  left_join(bundestag_man) %>% 
  mutate(row_sum=rowSums(.[2:3])) %>% 
  arrange(desc(row_sum))
```

### Barchart Bundestag

* Stacked-Barchart zur Geschlechterverteilung im Bundestag pro Partei
* visualisierung der Daten in möglichst geschlechterneuralen Farben
```{r}
plot_ly(data=bundestag_gesamt, x=~reorder(Partei,-row_sum), y=~gesamt_frau, name="weiblich", marker=list(color=toRGB("#FB7F62")),
        type="bar", hoverinfo="text", text=~paste("",row_sum), 
        hovertemplate=paste("Anzahl: %{y:,.0f}", 
                            "<br>Gesamtanzahl: %{text}")) %>% 
  add_trace(y=~gesamt_man, name="männlich", marker=list(color=toRGB("#775285"))) %>% 
  layout(barmode="stack", title="Geschlechterverteilung in den Parteien im Bundestag", # titel position und größe ändern
         xaxis = list(title = ""), yaxis=list(title="Anzahl Abgeordnete")) %>%
  layout(legend=list(x=1, y=0.5))
```

# Landtag Geschlechterverteilung pro Partei

* filtern allen Landtagen
* CDU & CSU sowie FDP & DVP zusammenfügen 
* nach männlich und weiblich gruppieren, Anzahl berechnen und sortieren
```{r}
landtag_partei <- Parlamentarier %>% 
  filter(Kategorie !="Bundestag") %>% 
  filter(Kategorie!="EU-Parlament") %>% 
  filter(Partei !="BIW") %>% 
  filter(Partei!="SSW") %>% 
  filter(Partei!="BVB/FW") %>% 
  filter(Partei!="FW")
```

```{r}
landtag_partei$Partei[landtag_partei$Partei == "CSU"] <-"CDU/CSU"
landtag_partei$Partei[landtag_partei$Partei=="CDU"] <- "CDU/CSU"
landtag_partei$Partei[landtag_partei$Partei=="FDP/DVP"] <- "FDP" 
```

```{r}
landtag_man <- landtag_partei %>% 
  group_by(Partei) %>% 
  filter(Geschlecht=="männlich") %>% 
  summarise(gesamt_man=n())

landtag_gesamt <- landtag_partei %>% 
  group_by(Partei) %>% 
  filter(Geschlecht=="weiblich") %>% 
  summarise(gesamt_frau=n()) %>% 
  left_join(landtag_man) %>% 
   mutate(row_sum=rowSums(.[2:3])) %>% 
  arrange(desc(row_sum))
```

### Barchart Landtag

* Stacked-Barchart zur Geschlechterverteilung in den Landtagen pro Partei
* visualisierung der Daten in möglichst geschlechterneuralen Farben
```{r}
plot_ly(data=landtag_gesamt, x=~reorder(Partei,-row_sum), y=~gesamt_frau, name="weiblich", marker=list(color=toRGB("#FB7F62")), 
        type="bar", hoverinfo="text", text=~paste("",row_sum), 
        hovertemplate=paste("Anzahl: %{y:,.0f}", 
                            "<br>Gesamtanzahl: %{text}")) %>% 
  add_trace(y=~gesamt_man, name="männlich", marker=list(color=toRGB("#775285"))) %>% 
  layout(barmode="stack", title="Geschlechterverteilung in den Parteien in den Landtagen", # titel position und größe ändern
         xaxis=list(title=""), yaxis=list(title="Anzahl Abgeordnete")) %>%
  layout(legend=list(x=1, y=0.5))
```

# Map mit Geschlechterverteilung in den Landtagen

* Alle Landtage herausfiltern
```{r}
parlamentarier_landtag <- Parlamentarier %>% 
  filter(Kategorie %in% c("Abgeordnetenhaus von Berlin", 
                          "Bayerischer Landtag", 
                          "Bremische Bürgerschaft", 
                          "Hamburgische Bürgerschaft", 
                          "Hessischer Landtag", 
                          "Landtag Brandenburg", 
                          "Landtag des Saarlandes", 
                          "Landtag Mecklenburg-Vorpommern", 
                          "Landtag Nordrhein-Westfalen", 
                          "Landtag Rheinland-Pfalz", 
                          "Landtag Sachsen-Anhalt", 
                          "Landtag von Baden-Württemberg", 
                          "Niedersächsischer Landtag", 
                          "Sächsischer Landtag", 
                          "Schleswig-Holsteinischer Landtag", 
                          "Thüringer Landtag"))
```

* Vektoren und Dataframe erstellen mit den Koordinaten an denen die späteren Pie-Charts fixiert werden sollen. (Immer genau im Mittelpunkt des Bundeslandes)

```{r}
Kategorie <- c("Abgeordnetenhaus von Berlin", 
               "Bayerischer Landtag", 
               "Bremische Bürgerschaft",
               "Hamburgische Bürgerschaft", 
               "Hessischer Landtag",
               "Landtag Brandenburg", 
               "Landtag des Saarlandes",
               "Landtag Mecklenburg-Vorpommern",
               "Landtag Nordrhein-Westfalen",
               "Landtag Rheinland-Pfalz",
               "Landtag Sachsen-Anhalt", 
               "Landtag von Baden-Württemberg", 
               "Niedersächsischer Landtag", 
               "Sächsischer Landtag", 
               "Schleswig-Holsteinischer Landtag", 
               "Thüringer Landtag")

lat <- c(52.520008,
         48.917431,
         53.074982,
         53.553815,
         50.652052,
         52.408418,
         49.396423,
         53.612651,
         51.433237,
         50.118346,
         51.950265,
         48.661604,
         52.636704,
         51.104541,
         54.219367,
         51.010989)

lng <- c(13.404954,
         11.407980,
         8.807080,
         9.991575,
         9.162438,
         12.562492,
         7.022961,
         12.429595,
         7.661594,
         7.308953,
         11.692274,
         9.350134,
         9.845077,
         13.201738,
         9.696117,
         10.845346)

bundeslaender_koordinaten <- data.frame(Kategorie, lat, lng)
```

* Dataframe nach Anzahl der männlichen und weiblichen Politiker*innen pro Bundesland filtern.

```{r}
parlamentarier_man <- parlamentarier_landtag %>% 
  group_by(Kategorie) %>% 
  filter(Geschlecht == "männlich") %>% 
  summarise(männlich = n())

parlamentarier_landtag_gesamt <- parlamentarier_landtag %>% 
  group_by(Kategorie) %>% 
  filter(Geschlecht == "weiblich") %>% 
  summarise(weiblich = n()) %>% 
  left_join(parlamentarier_man)
```

* Koordinaten der späteren Pie-Charts zur Haupttabelle joinen

```{r}
parlamentarier_koordinaten <- parlamentarier_landtag_gesamt %>% 
  left_join(bundeslaender_koordinaten, by = c("Kategorie" = "Kategorie"))
```

# Map mit Pie-Charts

* geschlechterneutrale Farben für die Geschlechterverteilung erstellen, sowie die Grenzen der Bundesländer importieren und mit Namen versehen (popup).
```{r}
colors <- c("#FB7F62", "#775285")

grenzen <- readRDS("Data/gadm36_DEU_1_sp.rds") %>% 
  st_as_sf()

popup_bundeslaender <- paste0("<strong>Bundesland: </strong>", grenzen$NAME_1)
```

* Pie-Charts mit Hilfe von addMinicharts zur Karte angefügt. 

```{r}
map <- leaflet() %>% 
  addProviderTiles(providers$CartoDB.VoyagerLabelsUnder) %>% 
  setView(lng = 10.451526, lat = 51.165691, zoom = 5.5) %>% 
  addPolygons(data = grenzen,
              fillColor = "grey",
              fillOpacity = 0.1,
              weight = 3,
              color = "grey",
              popup = popup_bundeslaender) %>% 
  addMinicharts(
    parlamentarier_koordinaten$lng, parlamentarier_koordinaten$lat,
    type = "pie",
    chartdata = parlamentarier_koordinaten[, c("weiblich", "männlich")],
    colorPalette = colors,
    width = 46,
    height = 46,
    opacity = 0.8,
    legendPosition = "bottomright"
  )
map
```

# Tweets der Politiker*innen scrapen

Nicht als ausführbaren Code, damit die Daten nicht nochmals gezogen werden...

Twitter_accounts <- Parlamentarier %>%
  filter(Kategorie!="EU-Parlament") %>%
  filter(Partei!="BIW") %>% 
  filter(Partei!="SSW") %>% 
  filter(Partei!="BVB/FW") %>% 
  filter(Partei!="FW") %>% 
  filter(Partei!="fraktionslos") %>% 
  filter(SM_Twitter_user != "")

token <- get_token()
token

alle_tweets <- list()
userIdList = list(Twitter_accounts$SM_Twitter_user)
rl <- rate_limit(token, "statuses/user_timeline")
for(user in userIdList[[1]]){
  alle_tweets[[user]] <- get_timeline(user, n = 2, check = F)
  print("rate limit remaining:", str(rl$remaining))
  print("at user:", str(user))
  rl <- rl %>%
    mutate(remaining = remaining - 1)
  # if rate limit exhausted, then wait to rate limit reset
  if (rl$remaining == 5L) {
    rl <- rate_limit(token, "statuses/user_timeline")
    print("rate limit exceeded, waiting for 900s at user", str(user))
    Sys.sleep(as.numeric(rl$reset, "secs"))
  }
}

### Nach relevanten Hashtags filtern 

* "alle_tweets.rds" ist die Datei mit allen gezogenen Tweets.
* nach relevanten Tweets filtern mit vorher bestimmten Hashtags ("Twitter-Hashtags.xlsx"), Tweets in Kleinschreibung formatieren und als "final_tweets.rds" exportieren. 
```{r}
alle_tweets <- read_rds("Data/alle_tweets.rds")

suchbegriffe <- read_excel("Data/Twitter-Hashtags.xlsx", sheet ="Tabelle2")

suchbegriffe_vector <- suchbegriffe$Hashtags

alle_tweets <- bind_rows(alle_tweets)

alle_tweets <- alle_tweets %>% 
  mutate(text = tolower(text))

filtert_tweets <- alle_tweets %>% 
  filter(str_detect(text, paste (suchbegriffe_vector, collapse = "|")))

write_rds(filtert_tweets, "final_tweets.rds")
```

# Sentimentanalyse

* nach den "großen" Parteien filtern
* alle Politiker*innen entfernen, welche keinen Twitteraccount besitzen
* Usernames in Kleinschreibung formatieren
```{r}
Parlamentarier_senti <- Parlamentarier %>% 
  filter(Partei!="BIW") %>% 
  filter(Partei!="SSW") %>% 
  filter(Partei!="BVB/FW") %>% 
  filter(Partei!="FW") %>% 
  filter(Partei!="fraktionslos") %>% 
  filter(SM_Twitter_user != "") %>% 
  select(Name, Partei, SM_Twitter_user, Geschlecht) %>% 
  mutate(SM_Twitter_user=tolower(SM_Twitter_user))
```

* CDU & CSU sowie FDP & DVP zusammenfügen 
```{r}
Parlamentarier_senti$Partei[Parlamentarier_senti$Partei == "CSU"] <- "CDU/CSU"
Parlamentarier_senti$Partei[Parlamentarier_senti$Partei == "CDU"] <- "CDU/CSU"
Parlamentarier_senti$Partei[Parlamentarier_senti$Partei == "FDP/DVP"] <- "FDP" 
```

* SentiWS importieren, um positive und negative Wörter zu klassifizieren
* Liste zur Sentimentanalyse ist von Universität Leipzig: "https://wortschatz.uni-leipzig.de/de/download"
```{r}
load("Data/sentiWS.RData")
sentiws <- dictionary(list(positive=positive, negative=negative))
```

* Corpus aus den Texten der gefilterten Tweets bilden
```{r}
tweet_corpus <- corpus(filtert_tweets, text_field = "text")
```

* tokenisieren der Texte und bilden einer DFM
* sentiws und "Tweet-Tokens" zusammenführen, sowie nach screen_name gruppieren

```{r}
token <- tokens(tweet_corpus)
dfm <- dfm(token)

senti <- dfm_lookup(dfm, sentiws)  
senti <- dfm_group(senti, groups = screen_name)
```

* DFM zum Dataframe konvertieren
* doc_id in Kleinschreibung formatieren
* Parlamentarier_senti joinen
* Gruppieren nach Partei
* Sentiment der einzelnen User*innen auf Parteiebene zusammenfassen und Verhältnis positive/negative bilden
```{r}
senti_frame <- senti %>% 
  convert(to= "data.frame") %>% 
  as_tibble() %>% 
  mutate(doc_id=tolower(doc_id))

senti_final_frame <- senti_frame %>% 
  full_join(Parlamentarier_senti, by=c("doc_id"="SM_Twitter_user")) %>% 
  group_by(Partei) %>% 
  summarise(across(c(negative, positive), ~round(sum(., na.rm = TRUE)/sum(negative + positive, na.rm = TRUE ), digits = 2)))
```

### Barchart

* Partei absteigend nach negativem Sentiment sortieren
* Beschriftung der X- und Y Werte ändern
* Barchart bilden und in ggplotly konvertieren
```{r}
senti_bar <- senti_final_frame %>% 
  mutate(Partei = fct_reorder(Partei, positive, max)) %>% 
  pivot_longer(c(positive, negative), values_to = c("Verhältnis"), names_to = c("Äußerung")) %>% 
  ggplot() + 
  geom_bar(aes(Partei,
               Verhältnis,               
               fill = Äußerung),
           position = "stack",
           stat = "identity") +
  scale_fill_manual(values = c("#f46666", "#8EC9BB")) + 
  theme_classic() + 
  labs(
    title = "Äußerungen der Politiker*innen auf Twitter zum Thema 'Gender'",
    subtitle = "Einschätzung durch Sentimentanalyse",
    x = "Partei",
    y = "Verhältnis",
    fill = "Äußerung"
  )

final_senti_plot <- ggplotly(senti_bar)
final_senti_plot
```

# Twitter Netzwerk 

* filtert_tweets "verkleinern" und in tweets_network speichern
* screen_name in Kleinschreibung formatieren
```{r}
tweets_network <- filtert_tweets %>% 
  select(screen_name,
         retweet_screen_name,
         created_at) %>% 
  mutate(screen_name = tolower(screen_name))
```

* Parlamentarier Dataframe mit tweets_network joinen, um Klaramen und Parteizugehörigkeit der Politiker*innnen zu bekommen
```{r}
parlamentarier_network <- Parlamentarier %>% 
  select(Name,
         Partei,
         SM_Twitter_user) %>% 
  drop_na(SM_Twitter_user) %>% 
  mutate(SM_Twitter_user = tolower(SM_Twitter_user)) %>% 
  rename("screen_name" = "SM_Twitter_user")

network_data <- parlamentarier_network %>% 
  left_join(tweets_network, by = "screen_name")
```

* Häufigkeit der Tweets zum Thema berechnen 
* Häufigkeit zu network_data joinen
```{r}
hauefigkeit_tweets <- network_data %>% 
  count(screen_name)

network_data <- network_data %>% 
  left_join(hauefigkeit_tweets, by = "screen_name")
```

* Vektor der screen_names aller Politiker*innen erstellen
* retweet_screen_name auf diese screen_names filtern, um "Fremduser*innen" auszuschließen 
```{r}
screen_suche <- parlamentarier_network$screen_name

filtered_retweeters <- network_data %>% 
  filter(str_detect(retweet_screen_name, paste (screen_suche, collapse = "|")))
```

* Netz mit relevanten Werten definieren mit: 
* Edges = von screen_name zu retweet_screen_name
* Nodes = Politiker*innen (screen_name und retweet_screen_name) 
* Joine aufs Netz Parteizugehörigkeit, Klarnamen und Häufigkeit der Tweets zum Thema (n)
```{r}
netz <- filtered_retweeters %>% 
  filter(!is.na(retweet_screen_name)) %>% 
  select(from = screen_name, to = retweet_screen_name) %>% 
  as_tbl_graph

netz <- netz %>% 
  mutate(
    degree = centrality_degree(mode = "in"), 
    component = group_components()
  ) %>% 
  left_join(network_data %>% 
              select(Name, screen_name, Partei, n) %>% distinct(screen_name, .keep_all = T),
            by = c( "name" ="screen_name")) 
```

* Farben für Parteien definieren
```{r}
partei_farben <- list(
  "CDU/CSU" = "black",
  "SPD" = "red",
  "CSU" = "black",
  "FDP" = "#e2b007",
  "GRÜNE" = "#07C23F",
  "LINKE" = "#de4c8a", 
  "AfD" = "blue"
)
```

# Netzwerk

Zuweisung von Attributen an Nodes:
* Parteizugehörigkeit in Farbe
* Klarname der Politiker*innen als Label 
* Anzahl der Tweets in Größe
```{r}
netz_plot <- netz %>% 
  filter(component <= 6) %>% 
  mutate(degree = centrality_degree(mode = "in")) %>% 
  ggraph(layout = "fr") +
  geom_edge_link(alpha = 0.25, arrow = arrow(length = unit("5", "mm"))) +
  geom_node_point(aes(size = n, color = Partei)) + 
  scale_color_manual(values = partei_farben) +
  theme_graph(background = "white") + # theme
  geom_node_label(aes(filter = n >= 15, label = Name), repel = T, show.legend = F, alpha = 0.5) + #position = "jitter"
  labs(title = "Retweet-Netzwerke deutscher Politiker*innen", size = "Anzahl Tweets", subtitle = "zum Thema 'Gender' ab 2016")
```
```{r}
netz_plot 
```

NODES DEUTLICHERE ABSTUFUNG, VLT. THEME FUNKTIONIERT NICHT RICHTIG


